Retour à la page d’accueil

Organisation des fichiers et données

Lors de cette séance nous allons apprendre:

  1. A organiser les fichiers dans les dossiers

  2. A organiser les données dans un fichier excel afin que ce soit compatible avec leur import dans R

  3. Ce que sont R et Rstudio et comment y importer des données

  4. Des bases de codage avec R

Etre capable de reproduire vos analyses et de les partager avec d’autres qui peuvent aussi les reproduire est essentiel.

Plusieurs scandales montrent l’importance d’une recherche reproductible et transparente: - Une erreur dans un fichier excel qui change la conclusion d’un papier sur le lien entre niveau d’endettement d’un pays et sa croissance

1. Organisation des fichiers

Adapté de ce cours

Pourquoi organiser ses fichiers et documents?

  • Vous allez créer beaucoup de documents.

  • Ils vont changer au cours du temps.

  • La relation entre les fichiers va aussi changer au cours du temps.

-> Bien organiser et nommer vos fichiers et dossier vous évitera bien des problèmes.

Faites le pour vous, et surtout votre future vous (qui a déjà eu des difficulté à retrouver un ancien fichier?), et aussi pour vos collègues, collaborateurs et encadrants.

Comment organiser ses fichiers et documents?

Bien organiser ses fichiers

La manière dont vous allez organiser vos fichiers va dépendre du type de données que vous générez pour votre projet. Il n’y a donc pas de solution universelle, mais vous pouvez suivre les principes suivants pour que quelqu’un qui n’est pas familier avec votre projet puisse comprendre ce que vous avez fait en regardant vos documents. A contrario une mauvaise organisation des fichiers et documents peut rendre votre tache plus difficile.

Principes clés:

  • Décidez de la structure des fichiers et sous-fichiers avant de commencer le projet

  • Gerdez tous les documents d’un projet dans le même fichier

  • Garder les données brutes séparémment et ne les changez jamais (faites un copie que vous pouvez modifier)

  • Incluez un document README qui contient une courte description des différents documents ainsi que les métadonnées et autres information


Exemple de structure d’un projet


Bien nommer ses documents

Les principes principaux pour nommer vos documents et qu’ils doivent être:

  1. lisible par un ordinateur
  2. lisible par un humain
  3. organisés de manière logique dans vos fichiers


Des documents lisibles par un ordinateur

C’est important pour pouvoir facilement chercher (et trouver!) des documents d’intérêt, filtrer des documents en fonction de leur nom et extraire des informations utiles à partir du nom du document.

Pour cela: - ordonnez les éléments dans le nom du document du plus général au plus spécifique - évitez les caractères spéciaux comme * : \ / < > | " ? [ ] ; = + & £ $ - Ne mettez pas d’espaces pour séparer les éléments dans le nom du document - choisissez une convention et tennez vous y: - toutenminuscule, exemple: adjustcolor - separe.par.un.point, exemple: plot.new - separe_par_un_tiret_bas, exemple: numeric_version - camelCase ou CamelCase, exemple: addTaskCallback ou SignatureMethod


Des documents lisibles par un humain

Des noms de documents lisibles par des humains doivent:

  • contenir des information sur ce que le document contient
  • contain semantics (place in work flow)
  • avoid usage of initials, abbreviations or codes that are not commonly understood
  • be short, but meaningful

Des documents organisés de manière logique dans vos fichiers

2. Organisation des données dans un fichier excel

Ajouter lien cours data carpentry ici

3. Intro à R